
\begin{abstract}
  
  深度神经网络相关算法在近期得到了长足的发展。在计算机视觉方向，深度神经网络算法在目标分类、目标识别等领域取得了突破性进展。在自然语言处理方向，深度神经网络也被大量用于机器翻译、文本分类、语义理解等任务。
  
  近年来，随着博客、短视频、自媒体等多媒体多模态的用户生成内容(User Generated Content, UGC)急剧增加，如何联合分析和利用不同模态的大规模数据成为了一个新的热门研究方向。相比单模态任务，多模态任务需要将不同模态的数据统一学习到一个表示空间，从而能够跨模态进行语意理解、跨模态召回等任务。
  
  本文对计算机视觉和自然语言处理研究方向上的重要进展进行了总结，针对调研了视觉模态和文本模态大规模融合学习的相关工作，并从多个角度总结了目前的研究工作和进展。最后，我们探讨了该问题的未来研究方向。
  
  本文的主要内容包括：
  
  \begin{enumerate}
      \item 介绍在计算机视觉和自然语言处理方向的重要进展。
      
      \item 给出多模态问题的定义，并给出该问题的常见学习目标。
      
      \item 从多个方向总结目前学术界在多模态任务上的最新进展。
      
      \item 分析目前多模态任务上面临的挑战和目前工作的不足，展望该问题的未来研究方向。
      
  \end{enumerate}
  

\end{abstract}
